Home » Lumea digitală » Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi

Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi

Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi
Sursa foto: Shutterstock
Publicat: 03.12.2022

În ultimii ani, tehnicile de învățare profundă au obținut rezultate remarcabile în numeroase sarcini de procesare a limbajului și a imaginilor. Printre acestea se numără și recunoașterea vizuală a vorbirii (VSR), adică, pe înțelesul tuturor, Inteligența Artificială (AI) care poate citi pe buze.

În timp ce unii algoritmi de învățare profundă au obținut rezultate foarte promițătoare în sarcinile VSR, aceștia au fost instruiți în primul rând pentru a detecta vorbirea în limba engleză, deoarece majoritatea seturilor de date de antrenament existente includ doar vorbire în limba engleză.

Acest lucru limitează baza lor potențială de utilizatori la persoanele care trăiesc sau lucrează în contexte vorbitoare de limba engleză.

Cercetătorii de la Imperial College London, din Anglia, au dezvoltat recent AI-ul care poate citi pe buze în mai multe limbi.

Cum a fost realizat AI-ul care poate citi pe buze în mai multe limbi?

Acest model, descris într-o lucrare publicată în Nature Machine Intelligence, s-a descoperit că depășește unele modele propuse anterior antrenate pe seturi de date mult mai mari.

„Recunoașterea vizuală a vorbirii (VSR) a fost unul dintre subiectele principale ale tezei mele de doctorat”, a declarat Dr, Pingchuan Ma, absolvent al Imperial College, care a efectuat studiul.

„În timpul studiilor, am lucrat pe mai multe subiecte, de exemplu, explorând cum să combin informațiile vizuale cu audio pentru recunoașterea audio-vizuală a vorbirii și cum să recunosc vorbirea vizuală independent de poziția capului participanților. Mi-am dat seama că marea majoritate a literaturii existente s-a ocupat doar de limba engleză”, a explicat el.

Obiectivul cheie al studiului realizat de Ma și colegii săi a fost să antreneze un model de învățare profundă pentru a recunoaște vorbirea în alte limbi decât engleza din mișcările buzelor vorbitorilor și apoi să compare performanța acestuia cu cea a altor modele antrenate să recunoască vorbirea în limba engleză.

Modelul creat de cercetători este similar cu cel introdus de alte echipe în trecut, dar unii dintre hiper-parametrii săi au fost optimizați, setul de date a fost mărit (adică, mărit prin adăugarea unor versiuni sintetice, ușor modificate de date) și au fost utilizate funcții suplimentare, notează Tech Xplore.

Un model mai eficient

„Am arătat că putem folosi aceleași modele pentru a antrena modele VSR în alte limbi”, a explicat Ma.

„Modelul nostru preia imagini brute ca intrare, fără a extrage nicio caracteristică, apoi învață automat ce caracteristici utile să extragă din aceste imagini pentru a finaliza sarcinile VSR. Principala noutate a acestei lucrări este că antrenăm un model pentru a efectua VSR și, de asemenea, adăugăm câteva metode suplimentare de creștere a datelor și funcții de pierdere”, continuă cercetătorul.

În evaluările inițiale, modelul creat de Ma și colegii săi a funcționat remarcabil de bine, depășind alte modele VSR antrenate pe seturi de date mult mai mari, chiar dacă a necesitat mai puține date originale de antrenament. Așa cum era de așteptat, totuși, AI-ul care poate citi pe buze nu a funcționat la fel de bine ca modelele de recunoaștere a vorbirii în limba engleză, în principal din cauza seturilor de date mai mici disponibile pentru instruire.

„Am obținut rezultate de ultimă generație în mai multe limbi prin proiectarea cu atenție a modelului, mai degrabă decât prin simpla utilizare a seturi de date mai mari sau modele mai mari, care este tendința actuală în literatură”, a spus Ma.

„Cu alte cuvinte, am arătat că modul în care este proiectat un model este la fel de important pentru performanța sa ca creșterea dimensiunii acestuia sau utilizarea mai multor date de antrenament. Acest lucru poate duce la o schimbare în modul în care cercetătorii încearcă să îmbunătățească modelele VSR”, a adăugat Ma.

Către ce ar putea duce această cercetare?

Ma și colegii săi au arătat că se pot obține performanțe de ultimă generație în sarcinile VSR prin proiectarea cu atenție a modelelor de învățare profundă, în loc să utilizeze versiuni mai mari ale aceluiași model sau să colecteze date suplimentare de antrenament, ceea ce este atât costisitor, cât și consumator de timp. În viitor, munca lor ar putea inspira alte echipe de cercetare să dezvolte modele VSR alternative care pot recunoaște citi pe buze în mod eficient și în alte limbi în afară de engleză.

„Unul dintre principalele domenii de cercetare care mă interesează este modul în care putem combina modelele VSR cu recunoașterea vocală existentă (numai audio),” a adăugat Ma.

„Sunt interesat în special de modul în care aceste modele pot fi ponderate dinamic, adică de modul în care modelul poate afla pe ce model ar trebui să se bazeze în funcție de zgomot. Cu alte cuvinte, într-un mediu zgomotos, un model audio-vizual ar trebui să se bazeze mai mult pe flux vizual, dar atunci când regiunea gurii este acoperită, ar trebui să se bazeze mai mult pe fluxul audio. Modelele existente sunt în esență blocate odată ce sunt antrenate și nu se pot adapta la schimbările din mediu”, a conchis el.

Vă recomandăm să citiți și:

Traficul de la orele de vârf ar putea fi descongestionat cu Inteligență Artificială

Dispozitivele Bluetooth au o vulnerabilitate care permite hackerilor să acceseze locația utilizatorilor

Amazon intensifică utilizarea roboților, dar susține că are în continuare nevoie de oameni

Ochelarii VR care te omoară pe loc dacă mori în joc au fost inventați

Ștefan Trepăduș
Ștefan Trepăduș
Ștefan Trepăduș este blogger începând cu anul 2009, având experiență și în domeniile publicitate și jurnalism. Este pasionat de marketing și de tehnologie, dar cel mai mult îi place să știe lucruri, motiv pentru care a fost atras de Descopera.ro. citește mai mult
Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase
Cele mai noi articole
Un fost astronaut NASA a dezvăluit o întâlnire inexplicabilă pe care a avut-o în 2023
Un fost astronaut NASA a dezvăluit o întâlnire inexplicabilă pe care a avut-o în 2023
Iată animalul care își poate regenera penisul în doar 24 de ore
Iată animalul care își poate regenera penisul în doar 24 de ore
Studiu: Scandinavii au ajuns în Marea Britanie cu mult înainte de vikingi și anglo-saxoni
Studiu: Scandinavii au ajuns în Marea Britanie cu mult înainte de vikingi și anglo-saxoni
Daniel Radcliffe, veșnicul Harry Potter. „Cât de iritant trebuie să fie pentru oameni să fie bombardați cu știri despre mine!”
Daniel Radcliffe, veșnicul Harry Potter. „Cât de iritant trebuie să fie pentru oameni să fie bombardați cu știri ...
Hans Christian Andersen, cel mai mare povestitor universal, se pare că a murit virgin. Inventator al tăieturilor pe hârtie
Hans Christian Andersen, cel mai mare povestitor universal, se pare că a murit virgin. Inventator al tăieturilor pe hârtie
Elon Musk încearcă să anuleze programul Artemis al NASA
Elon Musk încearcă să anuleze programul Artemis al NASA
O nouă generație umană începe oficial în 2025
O nouă generație umană începe oficial în 2025
Test de cultură generală. De ce este fluviul Amazon dificil de traversat?
Test de cultură generală. De ce este fluviul Amazon dificil de traversat?
Dark Energy Camera a capturat mii de galaxii într-o imagine uluitoare
Dark Energy Camera a capturat mii de galaxii într-o imagine uluitoare
Gestul simplu care îți poate arăta cât de mult te iubește partenerul
Gestul simplu care îți poate arăta cât de mult te iubește partenerul
Cum a scăzut Imperiul Roman inteligența europenilor?
Cum a scăzut Imperiul Roman inteligența europenilor?
Nvidia a făcut „spectacol” la Consumer Electronics Show (CES) din Las Vegas
Nvidia a făcut „spectacol” la Consumer Electronics Show (CES) din Las Vegas
Vizionarul care a realizat imposibilul. A scăpat de arderea pe rug în ultimul moment, iar marea sa pasiune aproape că l-a ucis
Vizionarul care a realizat imposibilul. A scăpat de arderea pe rug în ultimul moment, iar marea sa pasiune aproape că ...
Peste 90% dintre elevii români de clasa a VIII-a cunosc doar noțiuni de bază la matematică
Peste 90% dintre elevii români de clasa a VIII-a cunosc doar noțiuni de bază la matematică
Medicii din Iași cer interzicerea petardelor după ce zeci de copii au ajuns la urgențe de sărbători
Medicii din Iași cer interzicerea petardelor după ce zeci de copii au ajuns la urgențe de sărbători
Adio, zăpadă! Meteorologii anunță o lună ianuarie neobișnuit de blândă
Adio, zăpadă! Meteorologii anunță o lună ianuarie neobișnuit de blândă
Peste 120 de morți după cutremurul de 6,8 din Tibet
Peste 120 de morți după cutremurul de 6,8 din Tibet
Primul mormânt de femeie îngropată cu arme în Bazinul Carpatic, descoperit în Ungaria
Primul mormânt de femeie îngropată cu arme în Bazinul Carpatic, descoperit în Ungaria